Curso: Introducción al software R para Ciencia de Datos en Salud
XXXVI CCN Huancayo - SOCIMEP 2022
Percy Soto-Becerra M.D., M.Sc(c)
Investigador Externo, Universidad Continental, Huancayo
@github/psotob91
Agosto 11, 2022
“The simple graph has brought more information to the data analyst’s mind than any other device.” — John Tukey
La visualización de datos es la creación y el estudio de la representación visual de los datos.
Muchas herramientas para visualizar datos, R es una de ellas.
Muchos enfoques/sistemas dentro de R para hacer visualizaciones de datos
ggplot2 es el paquete de visualización de datos de tidyverse.
gg en ggplot2 significa Gramática de gráficos.
Inspirado en el libro Grammar of Graphics de Leland Wilkinson
country year infant_mortality life_expectancy fertility
1 Albania 1960 115.40 62.87 6.19
2 Algeria 1960 148.20 47.50 7.65
3 Angola 1960 208.00 35.98 7.32
4 Antigua and Barbuda 1960 NA 62.97 4.43
5 Argentina 1960 59.87 65.39 3.11
6 Armenia 1960 NA 66.86 4.55
population gdp continent region
1 1636054 NA Europe Southern Europe
2 11124892 13828152297 Africa Northern Africa
3 5270844 NA Africa Middle Africa
4 54681 NA Americas Caribbean
5 20619075 108322326649 Americas South America
6 1867396 NA Asia Western Asia
Inicia con el data.frame gapminder
Inicia con el data.frame gapminder, mapea year a x
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo”
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”.. Etiqueta los ejes x e y como “Año” y “Esperanza de Vida”, respectivamente
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”. Etiqueta los ejes x e y como “Año” y “Esperanza de Vida”, respectivamente. Etiqueta la leyenda como “Continentes”
Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”. Etiqueta los ejes x e y como “Año” y “Esperanza de Vida”, respectivamente. Etiqueta la leyenda como “Continentes” y agrega un titulo para la fuente de datos
ggplot(data = gapminder,
mapping = aes(x = year,
y = life_expectancy,
colour = continent)) +
geom_point() +
labs(title = "Esperanza de vida a lo largo del tiempo",
subtitle = "Datos para Africa, Americas, Asia, Europa y Oceania",
x = "Año", y = "Esperanza de Vida",
colour = "Continentes",
caption = "Fuente: Gapminder data")Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y. Representa cada información con un punto. Mapea continent al color de los puntos. Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”. Etiqueta los ejes x e y como “Año” y “Esperanza de Vida”, respectivamente. Etiqueta la leyenda como “Continentes” [y agrega un titulo para la fuente de datos. Finalmente, usa una escala de colores discreta que esté diseñada para preservar la visualización de personas con formas comunes discapacidad visual para los colores
ggplot(data = gapminder,
mapping = aes(x = year,
y = life_expectancy,
colour = continent)) +
geom_point() +
labs(title = "Esperanza de vida a lo largo del tiempo",
subtitle = "Datos para Africa, Americas, Asia, Europa y Oceania",
x = "Año", y = "Esperanza de Vida",
colour = "Continentes",
caption = "Fuente: Gapminder data") +
scale_colour_viridis_d()ggplot(data = gapminder,
mapping = aes(x = year,
y = life_expectancy,
colour = continent)) +
geom_point() +
labs(title = "Esperanza de vida a lo largo del tiempo",
subtitle = "Datos para Africa, Americas, Asia, Europa y Oceania",
x = "Año", y = "Esperanza de Vida",
colour = "Continentes",
caption = "Fuente: Gapminder data") +
scale_colour_viridis_d()Inicia con el data.frame gapminder, mapea year a x y mapea life_expectancy a y.
Representa cada información con un punto.
Mapea continent al color de los puntos.
Titula el gráfico como “Esperanza de vida a lo largo del tiempo” y agrega el subtitulo “Datos para Africa, Americas, Asia, Europa y Oceania”.
Etiqueta los ejes x e y como “Año” y “Esperanza de Vida”, respectivamente.
Etiqueta la leyenda como “Continentes” [y agrega un titulo para la fuente de datos.
Finalmente, usa una escala de colores discreta que esté diseñada para preservar la visualización de personas con formas comunes discapacidad visual para los colores.
Se puede omitir los nombres de los dos primeros argumentos cuando construimos gráficos con ggplot2.
Se puede realizar transformaciones sobre la marcha de las variables en los gráficos de ggplot2
ggplot(data = gapminder,
mapping = aes(x = gdp,
y = life_expectancy,
colour = continent)) +
geom_point() +
labs(title = "PBI y esperanza de vida",
subtitle = "Datos para Africa, Americas, Asia, Europa y Oceania",
x = "Producto Bruto Interno",
y = "Esperanza de Vida",
colour = "Continentes",
caption = "Fuente: Gapminder data") +
scale_colour_viridis_d()ggplot(data = gapminder,
mapping = aes(x = log(gdp), #< Ponemos log()
y = life_expectancy,
colour = continent)) +
geom_point() +
labs(title = "PBI y esperanza de vida",
subtitle = "Datos para Africa, Americas, Asia, Europa y Oceania",
x = "Logaritmo de Producto Bruto Interno", #< Editamos nombre
y = "Esperanza de Vida",
colour = "Continentes",
caption = "Fuente: Gapminder data") +
scale_colour_viridis_d()Las características comunmente usadas en los gráficos que pueden ser mapeadas a variables específicas en los datos:
color
forma
tamaño
alfa (transparencia)
::: {.column width = ‘50%’}
::::
Mapping: Determina el tamaño, alfa, etc. de los puntos basados en el valor de un variable en los datos:
Mapping: Determina el tamaño, alfa, etc. de los puntos SIN basarse en el valor de un variable en los datos:
Puntos pequeños pueden mostrar diferentes subconjuntos de los datos.
Útil para explorar relaciones condicionales y grandes datos
Introducción a R y RStudio